모방학습 주요 학습 방식
1. Behavioral Cloning (행동 복제)
시연 데이터를 지도학습처럼 학습.
- 입력: 상태(state), 출력: 행동(action) → supervised learning
- 예: 사람이 조이스틱으로 로봇을 조종한 로그를 그대로 학습
2. Inverse Reinforcement Learning (IRL)
시연을 보고 "전문가가 어떤 보상 함수를 최적화하고 있나?"를 역으로 추론.
- 전문가의 의도를 수학적으로 복원
3. Apprenticeship Learning (견습 학습)
보상 추론 대신 전문가의 정책 자체를 모방.
- IRL보다 단순하고 보상 설계 모호성을 줄임
학습 절차
-
데이터 수집: 사람의 조작, 원격 텔레오퍼레이션, 모션캡처, 시뮬레이션 등으로 시연 데이터 수집
- 로그: (상태, 행동) 쌍을 기록 → 데이터셋 구성
-
문제 변환: 시연 데이터를 지도학습 문제로 전환
- "이 상태에서 사람이 이런 행동을 했다"를 정답 라벨로 둠
-
모델 학습: 신경망(예: CNN, Transformer, Diffusion Policy 등)을 이용해 상태→행동 매핑을 학습
-
일반화: 새로운 환경에서도 비슷한 패턴을 인식해 적응 가능
-
실행: 로봇에 정책을 탑재, 실시간으로 행동 제어
장단점
| 구분 | 내용 |
|---|---|
| 장점 | |
| 빠른 학습 | 보상설계없이 시연만으로 학습한다 |
| 사람같은 상호작용 | 더 자연스러운 동작을 따라할 수 있다 |
| 적응력 | 비정형환경에서도 대응 가능하다 |
| 확장성 | 다양한 로봇/작업에 적용 가능하다 |
| 반복개선 | 새로운 시연 데이터로 계속 업데이트 가능하다 |
| 단점 | |
| 데이터품질 | 전문가 시연이 부족하거나 잡음이 많으면 성능 저하된다 |
| 고차원문제 | 다관절로봇(예: 휴머노이드) - 학습에 어려움이 있다 |
| 일반화 한계 | 학습에 없는 환경에서 쉽게 실패가능 |
| 안전문제 | 자율주행/헬스케어처럼 예외 상황 대응이 중요함 |
| 샘플 효율성 | 많은 시연 데이터 필요 - 시뮬레이션과 합성데이터활용이 필요 |
모방학습 주요 모델
1. BC (Behavioral Cloning)
소개
가장 기본적인 모방학습 방식으로, 전문가의 상태(state)와 행동(action) 데이터를 지도학습 형태로 학습
특징
- 구현이 매우 쉽고 빠름
- 보상 설계 없이 시연 데이터만으로 학습 가능
- 단점: 작은 에러가 누적되어 covariate shift 발생 → training 분포와 execution 분포가 달라져 일반화가 약해짐
2. DAgger (Dataset Aggregation)
소개
BC의 covariate shift 문제를 해결하기 위한 interactive learning 기법. 에이전트가 직접 환경에서 행동한 후, 전문가에게 그 상황에서 무엇을 했을지 피드백을 받아 데이터를 점진적으로 확장
특징
- 초기 데이터 부족 해결
- distribution mismatch를 줄여 안정성 향상
- 전문가의 지속적인 피드백이 필요해 현실 적용 비용이 큼
3. Diffusion Policy
소개
Diffusion Model을 행동 시퀀스 예측에 적용. noisy action sequence를 만들고 점진적으로 정제(denoising)하면서 최종 policy를 생성
특징
- 긴 시간 동안 이어지는 복잡한 행동(long-horizon sequence)에 강점
- 연속적인 움직임을 매끄럽게 만들어 manipulation 성능이 안정적
- transformer 기반 시퀀스 예측 보다 안정성 향상
4. ACT (Action Chunking with Transformers)
소개
ACT (Action Chunking with Transformers)
Transformer 기반 imitation learning 기법. 긴 action sequence를 chunk 단위로 묶어 효율적으로 학습
특징
- 저비용 하드웨어 + 짧은 시연(10분)만으로도 bimanual task(양팔 협동 조작)를 높은 성공률로 학습
- WidowX Arm 두 대를 활용한 ALOHA 텔레오퍼레이션 시스템에서 검증
- 2024년에는 Mobile ALOHA로 확장 → 이동(base navigation)과 양팔 조작을 동시에 학습 가능
- 데모 영상
5. RT-2 (Robotics Transformer 2)
소개
Google DeepMind가 발표한 Vision-Language-Action (VLA) 모델. 인터넷 규모의 웹 데이터 + 로봇 시연 데이터를 동시에 학습, 자연어·시각 정보·로봇 행동을 하나의 통합된 정책으로 연결
특징
- 생성된 행동을 토큰화(tokenized action string)하여 언어처럼 표현, transformer으로 예측
- Zero-shot/다단계 추론(chain-of-thought reasoning) 가능, 새로운 지시문에도 대응
6. π₀ (pi-zero)
소개
OpenAI가 발표한 Vision-Language-Action 모델. RT-2와 유사하게 vision + language를 입력받아 policy를 생성하지만, action을 discrete token으로 바꾸지 않고 연속적인 action vector를 직접 출력하는 접근 방식
특징
- 언어 + 비전 입력을 받아 continuous action sequence 산출
- 정밀한 manipulation task에서 강점
7. OpenVLA
소개
커뮤니티 오픈소스로 RT-2 계열을 재현한 프로젝트. 누구나 학습·실험할 수 있도록 구현체와 pretrained weight를 공개
- 입력: 이미지 + 텍스트 → transformer → 출력: tokenized action sequence (액션을 토큰화)
특징
- 성능은 RT-2보다 낮지만, 접근성 확대에 큰 기여
- 범용 로봇 연구를 democratize 하는 역할
8. SmolVLA
소개
허깅페이스(Hugging Face)가 발표한 경량화된 VLA 모델. 대규모 GPU 없이도 실험 가능하도록 소규모 파라미터(450M)로 설계
- 입력: 이미지 + 텍스트 → 소형 transformer → 출력: action token sequence (토큰 단위로 정의된 action들이 모인 시퀀스)
특징
- 저비용 학습/추론 가능 → 로컬 GPU(CPU, 단일 소비자용 GPU, 맥북 등)에서도 활용 가능
- 기본 모델 및 데이터셋 또한 오픈소스(허깅페이스)로 공개